Análisis espacial

Residencia de Epidemiología

Análisis espacial


Las técnicas de estadística clásica suponen estudiar variables aleatorias que se consideran independientes e idénticamente distribuidas (i.i.d.). Por ello, al momento de analizar fenómenos que varían en el espacio (también para la variación temporal) se requiere una modelación que considere la autocorrelación espacial (o temporal o ambas).

Cuando se tienen datos espaciales intuitivamente se tiene la noción de que las observaciones cercanas están correlacionadas, por ello es necesario utilizar herramientas de análisis que consideren dicha estructura.

Kriging


  • El método de Kriging es una interpolación espacial utilizada para obtener predicciones en ubicaciones no muestreadas a partir de datos geoestadísticos observados.

  • Se originó en el campo de la geología minera y lleva el nombre del ingeniero de minas sudafricano Danie G. Krige.

  • Asume que lo cercano es más parecido a lo que está lejos.

  • Realiza un promedio ponderado de los valores conocidos. Esta ponderación surge de ajustar previamente un modelo de variograma a los datos observados, lo que nos ayuda a comprender cómo cambia la correlación entre los valores de observación con la distancia entre ubicaciones.

Variograma

  • El variograma, también llamado semivariograma, muestra cómo varía una variable según la distancia entre los puntos.
  • Mide la diferencia promedio entre los valores de una variable para pares de puntos que están a cierta distancia.
    • Si dos puntos están muy cerca, normalmente tienen valores similares, así que la diferencia (llamada semivarianza) es baja.
    • Si dos puntos están más lejos, sus valores tienden a ser más distintos, así que la semivarianza aumenta.
  • Sirve para modelar la estructura espacial de los datos, calcular los pesos que el kriging usa para estimar valores nuevos y saber hasta qué distancia los datos están espacialmente relacionados.

Variograma


El gráfico del variograma tiene como parámetros principales:

  • Nugget: es el valor de origen (distancia = 0), representa errores de medición, errores aleatorios, etc

  • Sill: “meseta”, es el valor máximo que alcanza la semivarianza.Muestra cuánta variabilidad total tiene la variable.

  • Range: “alcance”, es la distancia a partir de la cual los puntos dejan de estar correlacionados (más allá de esa distancia, los valores ya no se parecen entre sí)


Variograma

  • Primero ejecutamos un variograma empírico a través de variogram() de gstat
  • Luego, y en función del gráfico observado, usando vgm() ajustamos un modelo de variograma. Aquí debemos elegir los parámetros estimados en el paso anterior (nugget, still y range) y el modelo.
  • Los modelos posibles son “Exp”, “Sph”, “Gau”, “Mat”, etc. Cada uno tiene sus características que habrá que adaptar a lo que dicen los datos.

  • Finalmente ajustamos el modelo al variograma empírico con fit.variogram() y vemos si lo teórico ajusta bien en nuestros datos.

Kriging


El kringing se efectúa usando los datos, más la gilla de puntos a estimar junto con el semivariograma ajustado final.

Vecindad espacial


  • El concepto de vecindad espacial es útil para la exploración de datos de áreas, con el fin de evaluar la autocorrelación espacial y determinar si las áreas cercanas presentan valores similares o diferentes.
  • Los vecinos espaciales pueden definirse de diversas maneras, según la variable de interés y el contexto específico. La definición más simple de vecindad supone que los vecinos son áreas que comparten un límite común.
  • También podemos ampliar el concepto de vecindad para incluir áreas cercanas, pero no necesariamente adyacentes, asumiendo que los vecinos son áreas que se encuentran a cierta distancia entre sí.

Autocorrelación espacial


La autocorrelación espacial se utiliza para describir el grado en que una variable está correlacionada consigo misma a través del espacio

La autocorrelación espacial positiva ocurre cuando las observaciones con valores similares están más cerca entre sí (es decir, agrupadas). La autocorrelación espacial negativa ocurre cuando las observaciones con valores diferentes están más cerca entre sí (es decir, dispersas)

I de Moran


  • El índice de Moran mide la autocorrelación espacial global y fue desarrollada por Patrick Moran.
  • La autocorrelación espacial positiva se produce cuando el I de Moran es cercano a +1 (1 es igual a autorrelación perfecta)
  • La autocorrelación espacial negativa ocurre cuando el I de Moran es cercano a -1 (-1 es igual a dispersión perfecta)

I de Moran


El Indice se utiliza para:

  • Comprender la variación de un fenómeno en un marco geográfico de análisis.
  • Medir como se distribuyen lo fenómenos analizados en el espacio geográfico (Goodchild 1986).
  • Medir el grado en el que la variable geográfica esta correlacionada con ella misma en dos puntos o zonas diferentes del área de estudio.

I de Moran global


  • La función moran.test() del paquete spdep se puede utilizar para obtener la autocorrelación espacial utilizando el algoritmo de I de Moran.
  • Sus argumentos son un vector numérico con los datos, una lista con las ponderaciones espaciales y el tipo de hipótesis. La hipótesis puede establecerse como igual a greater (valor predeterminado), less o two.sided como hipótesis alternativa diferente.
  • \(H_0: I \leq E[I]\) no autocorrelación espacial
  • \(H_1: I > E[I]\) autocorrelación espacial positiva

I de Moran global


El p-valor no es estadísticamente significativo: No podemos rechazar la hipótesis nula. Es posible que la distribución espacial de los valores de entidades sea el resultado de procesos espaciales aleatorios.

El p-valor es estadísticamente significativo e I de Moran positivo: Podemos rechazar la hipótesis nula. La distribución espacial de los valores altos y los valores bajos está más agrupada espacialmente de lo que se esperaría si los procesos espaciales subyacentes fueran aleatorios.

El p-valor es estadísticamente significativo e I de Moran negativo: Podemos rechazar la hipótesis nula. La distribución espacial de los valores altos y los valores bajos está más dispersa espacialmente de lo que se esperaría si los procesos espaciales subyacentes fueran aleatorios.

I de Moran global


I de Moran global

  • La función moran.plot() se puede utilizar para construir un diagrama de dispersión de índices de Moran para visualizar la autocorrelación espacial de los datos.

  • Este gráfico muestra las observaciones de cada área en relación con sus valores rezagados espacialmente.

  • El valor rezagado espacialmente para un área determinada se calcula como un promedio ponderado de los valores vecinos de esa área.

I de Moran local


  • Vimos como el I de Moran global proporciona un índice para evaluar la autocorrelación espacial para toda la región de estudio.
  • Si deseamos obtener una medida local de similitud entre el valor de cada área y los de áreas cercanas, necesitamos por ejemplo el I de Moran local (es una de las LISA más populares)
  • Los indicadores locales de asociación espacial (LISA) (Anselin 1995) están diseñados para proporcionar el grado de agrupamiento espacial significativo de valores similares alrededor de cada observación.

I de Moran local


  • La función localmoran() del paquete spdep se puede utilizar para calcular el I de Moran local.
  • Sus argumentos son: un vector numérico con los valores de la variable, una lista con los pesos vecinos y el nombre de una hipótesis alternativa que puede establecerse como greater [valor predeterminado], less o two.sided.
  • El objeto devuelto contiene importantes variables:
    • Ii: I de Moran local para cada área
    • Pr(z > E(Ii)), Pr(z < E(Ii)) o Pr(z != E(Ii)): valor p para una hipótesis alternativa. greater, less o two.sided, respectivamente.

I de Moran local


  • A diferencia del global, el I de Moran local no está acotado en el mismo rango teórico, dado que no se normaliza. Solo está relacionado con una covarianza local entre una observación y el promedio de sus vecinos.
  • Esta situación provoca que podamos encontrar valores de I de Moran local mayores a 1 o menores a -1.
  • Para interpretarlos debemos prestar atención al signo del valor (positivo = clúster; negativo = outlier) y a su significación estadística (p-valor))